非参数估计的根基,核密度估计大陈述
核概率密度估计
本文分为三个部分:第一部分是直方图,讨论了如何创建它以及它的属性是什么样的。
第二部分是核密度估计,介绍了它对比直方图有哪些改进和更一般性的特点。
最后一部分是,为了从数据中抽取所有重要的特征,怎么样选择最合适,漂亮的核函数。
直方图
直方图是最简单,并且也是最常见的一种的非参数概率密度估计方法
为了构造直方图,我们需要把数据取值所覆盖的区间分成相等的小区间,可以叫做“箱子”,每次一个数据值将会掉落在一个特定的小区间中,一个“箱子”宽度的盒子就会垒在数据点的上方。当我们构造直方图的时候,需要考虑两件事情: 第一,“箱子”的宽度,第二,箱子的结束位置。
这里用的数据是1956年到1984年的飞机的机翼的跨度(完整的数据可以在Bowman & Azzalini(1997)Applied Smoothing Techniques for Data Analysis 找到)。我们只用到其中的一部分数据,也就是2, 22, 42, 62, 82, 102, 122, 142,162, 182, 202 and 222。为了在图上显示的方便我们只使用了部分的数据,否则一些点就会变得稠密看不清。数据点在x轴上用十字叉表示。
如果我们选择在0 和 0.5作为分界点 并且带宽为0.5,直方图看起来就像下面左边的图形,相对直方图的左边它的概率密度看起来是单峰形状并且滑向右边,右边的直方图选择分界点在0.25和0.75之间,并且选择了相同的“箱子”宽度,现在我们得到了一个完全不同的概率密度估计,它看起来是一个双峰模型。
我们已经用了上面的两个例子讲解了直方图的特性,他们是
不平滑
依赖“箱子”的结束点
依赖箱子的宽度
我们可以通过使用核密度估计方法消除前面两个问题,为了去掉对“箱子”结束点的依赖,我们把需要累加到数据点上的箱子安装数据点的位置为中心对齐而不是按照“箱子”的结束点对齐。
在上面这个新的直方图中,我们把“箱子”换成宽1/2 高 1/6 (如虚线框标注的箱子),一共有12个数据点,然后把他们加在一起(以数据点为中心,重叠的部分往上累加)。
这个概率密度估计(图中实线部分)比前面提到的直方图少了很多矩形块状,因为我们抽取出了更好的结构,概率密度估计看起来是双峰的结构。
我们把它叫做盒子核密度估计。 这个密度估计仍然不是连续的因为我们用了一个不连续的核做为我们构建的基础块。如果我们使用一个平滑的核做为构建的基础块,那么我们会得到一个平滑的核密度估计,因此我们可以消除直方图问题中的第一个(不平滑问题),但不幸运的是,我们仍然不能消除对带宽(“盒子宽度”)的依赖
选择一个合适的带宽值是非常重要的,太大或者太小的值都没有多大的用处。
如果我们选择一个高斯核,带宽(标准差)为0.1(每一个高斯核曲线下方的面积为1/12,因为有12个高斯曲线,为了保证所有的概率密度曲线的面积为1),那么这个核密度估计是欠平滑的因为带宽太小的原因。看下面的图中左边图中,这有4个峰值在该密度估计中,其中一些是因为数据的问题(some of these are surely artifices of the data,不知道如何翻译)。我们可以通过增加高斯核的带宽到0.5来设法消除这些影响,我们获得了一个更平滑的单峰的估计模型。这种情况就是过平滑,因为我们选择了一个比较大的带宽,忽略了比较多的数据本身的结构特征。
那么我们怎么选择一个最优的带宽呢?一个通用的办法是使用最小化最优误差(该误差是一个最优带宽的函数)AMISE(Asymptotic Mean Integrated Squared Error)的带宽.因此最优带宽就是 argmin AMISE 也就是选择使得AMISE最小的参数作为带宽。
一般来说,AMISE 任然要依赖于隐藏在背后的真实的概率分布(显然我们得不到这个分布)。因此我们需要从观测的数据中去估计AMISE,这意味着带宽的选择是一个渐进近似的估计。这听起来好像远离了真实的最优值,但是事实证明这种特殊的带宽选择方式覆盖了几乎所有重要的特征同时保持了估计的平滑性。
在我们的数据集中,最优的带宽值设置为0.25。从最优化的平滑和密度估计中可以看出有两个峰。因为这些是飞行器机翼跨度的数据记录,这表示有一组小型轻量级的飞机的制造。这些聚类在2.5附近(大概是12米)。然而从1960年起,大型的装配了喷气式引擎的商业用途的飞机的聚类在3.5附近(33米)
核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。
(1)基本原理: 核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很比大,和这个数比较 近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)去拟合我们想象中 的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某 些数反之,则可以取加权平均。
与直方图比较,核密度估计的属性列表如下:
平滑性
不依赖核的尾部位置
依赖带宽的选择
这是一个对核密度估计的入门介绍问题,当前的研究状态是,一维下的很多问题已经被解决了,下一阶段需要扩展这些思想到多维的情况,这些情况还少有研究成果这是由于多维核的方向对概率密度的估计有很大的影响(which has no counter part inone-dimensionalkernels这种情况下找不到一维概率密度相对应的核函数)作者当前正在为对维核寻找可靠的带宽选择方法。当前取得的进展是plug-in 方法可以在这里找到,但是这篇文章更多的技术性并且用到了更多的方程。
原文地址:http://www.mvstat.net/tduong/research/seminars/seminar-2001-05/
把非参数估计的方法讲的很浅显易懂,主要是原理上的处理,对缺少先验知识的情况下,估计概率密度函数很有用,同样对高斯混合模型,有的地方可以看到,说一个分部可以通过多个高斯分布混合来拟合出来,看起来好像没有什么区别,混合高斯模型与核密度估计,都是从数据估计概率分布的情况,
但是混合高斯模型的应用场景是几乎可以判定数据是从高斯模型生成的,或者是近似高斯分布的,利用了先验知识,得到的结果可能更好一些,用于分类的场景比较多,核密度估计方法主要是用于概率密度估计,完全没有先验知识。目前的理解只能到这里,后面如果有更多的理解会继续添加新的理解。
注:来源于http://www.cnblogs.com/wt869054461/p/5935992.html。
《END》
写在后面:各位圈友,一个等待数日的好消息,是计量经济圈应圈友提议,09月04日创建了“计量经济圈的圈子”知识分享社群,如果你对计量感兴趣,并且考虑加入咱们这个计量圈子来受益彼此,那看看这篇介绍文章和操作步骤哦(戳这里)。进去之后一定要看“群公告”,不然接收不了群信息。若需要获得计量经济学视频资料,那可以(戳这里)。